import os
import pandas as pd
from pathlib import Path

def find_missing_files():
    # 原始图片目录
    input_dir = "原始图片"
    # 输出目录
    output_dir = "output_images"
    
    # 获取所有原始图片文件名（不包含路径）
    original_files = set()
    for file in os.listdir(input_dir):
        if file.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp', '.gif')):
            original_files.add(file)
    
    # 获取所有已处理图片文件名（不包含路径）
    processed_files = set()
    for root, dirs, files in os.walk(output_dir):
        for file in files:
            if file.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp', '.gif')):
                processed_files.add(file)
    
    # 找出缺失的文件
    missing_files = original_files - processed_files
    
    # 创建DataFrame保存结果
    df_missing = pd.DataFrame(list(missing_files), columns=['缺失文件名'])
    
    # 保存到Excel文件
    excel_file = "missing_files.xlsx"
    df_missing.to_excel(excel_file, index=False)
    
    # 打印统计信息
    print(f"原始图片总数: {len(original_files)}")
    print(f"已处理图片总数: {len(processed_files)}")
    print(f"缺失图片数量: {len(missing_files)}")
    print(f"缺失文件列表已保存到: {excel_file}")
    
    # 如果缺失文件数量大于0，打印前10个缺失文件名
    if missing_files:
        print("\n前10个缺失文件名:")
        for i, file in enumerate(list(missing_files)[:10], 1):
            print(f"{i}. {file}")

if __name__ == "__main__":
    find_missing_files() 